#AI GPU
摩爾線程重磅發佈:新一代GPU架構“花港”能效提升10倍,系列晶片明年量產上市,推出AI算力筆記本
國產GPU廠商摩爾線程發佈新一代GPU架構"花港",並宣佈基於該架構的系列晶片將於明年量產上市。這是這家"國產GPU第一股"在技術路線上的重要升級,旨在提升本土AI算力供給能力。12月20日,摩爾線程創始人、董事長兼首席執行長張建中在公司首屆MUSA開發者大會上宣佈,基於"花港"架構的華山、廬山系列晶片將於明年量產上市。據介紹,新架構採用全新一代指令集,算力密度提升50%,能效提升10倍,並支援十萬卡以上規模智算叢集。張建中表示,當前大模型推理仍面臨迭代高速化、服務極致化、模型複雜化三大挑戰。為此,"花港"整合了全精度端到端加速技術和新一代非同步程式設計模型,以提升智算叢集的算力利用率。在同場發佈會上,摩爾線程還推出首款AI算力筆記本MTT AIBOOK,搭載自研智能SoC晶片"長江",32GB、1TB版本預售價9999元。新架構性能大幅躍升"花港"架構在計算和圖形性能上實現多項突破。據張建中介紹,該架構採用全新一代指令集,支援非同步程式設計模型和高效的線程同步,算力密度提升50%,能效提升達10倍。基於該架構的"華山"GPU晶片,在浮點算力、訪存頻寬、訪存容量和高速互聯頻寬方面,取得了多項領先甚至超越國際主流晶片的能力。這標誌著國產GPU在高性能計算領域的技術進步。針對圖形渲染場景,基於"花港"的"廬山"高性能圖形渲染晶片,將實現3A遊戲渲染15倍的提升,AI性能提升64倍,光線追蹤性能提升50倍。該晶片除支援遊戲體驗外,還支援所有CAD等圖形設計渲染應用。據介紹,"花港"架構還擁有全新第一代AI生成式渲染架構(AGR)和第二代光線追蹤硬體加速引擎。軟體生態全面升級在硬體架構升級的同時,摩爾線程宣佈自研MUSA架構迎來全端軟體升級。張建中表示,MUSA架構完美支援全功能GPU計算生態,擁有完備的軟體棧和廣泛的生態相容,統一軟體棧覆蓋全系列產品。張建中強調,全功能GPU的創新就是一部算力進化史,"全功能"意味著其能夠計算所有的資料單元和格式。這一能力對於支援日益複雜的AI模型和多樣化的應用場景至關重要。首款AI算力筆記本亮相摩爾線程在大會上發佈了AI算力筆記本MTT AIBOOK,目前已在京東開放預售。該筆記本搭載摩爾線程自主研發的智能SoC晶片"長江",整合高性能全大核CPU和摩爾線程全功能GPU,支援MUSA統一架構,異構AI算力達50TOPS。該筆記本集開發、辦公、娛樂等功能於一體,支援Windows虛擬機器、Linux、Android容器以及所有國產作業系統。32GB記憶體、1TB儲存版本預售價9999元,面向AI開發者和專業使用者市場。 (華爾街見聞)
中國AI晶片三巨頭總市值超1.2兆!
被列為國產AI晶片三大巨頭之一的沐曦股份今天在中國A股上市,首日股價暴漲近7倍。 終場這三大巨頭總市值高達人民幣1兆2227.88億元,但前3季合計營收僅人民幣66.28億元,陸媒譏諷,連輝達的零頭都沒有。被稱為中國國產GPU(繪圖處理器)第二股的沐曦股份今天在科創板上市,開盤就大漲568.83%,股價直衝700元。 下午收盤,沐曦股價暴漲692.95%,收829.9元,總市值一舉增至3320.43億元。在此之前的12月5日,中國國產GPU第一股摩爾線程上市,首日暴漲425.46%,收600.5元。 今天收盤,摩爾線程股價已達714.8元,總市值則達3359.76億元。此外,2020年7月上市的中國國產AI晶片第一股寒武紀,今天以1315.6元作收,總市值5547.69億元。截至今天收盤,中國這3家AI晶片巨頭總市值高達1兆2227.88億元。中國這三巨頭總市值加起來超過了1兆,但整體業務和營收跟龍頭輝達(NVIDIA)相比還有很大的差距。今年前3季,這三巨頭合計營收才66.28億元(寒武紀46.07億元,摩爾線程7.85億元、沐曦股份12.36億元),這連輝達的零頭都沒有。報導提到,三家公司中目前只有寒武紀轉虧為盈,前3季淨利16億元; 而摩爾線程預計今年將虧損7.3億至11.68億元;沐曦股份也預計虧損5.27億至7.63億元。資本瘋狂追捧下,中國AI晶片三巨頭股價已嚴重背離基本面,引發市場熱議並質疑存在泡沫化危機。中國國產晶片替代還有漫長的路要走,而這些被扶持的企業,還要在研發上苦下功夫,而不是上市就萬事大吉了。 (大話晶片)
輝達 Rubin :計算密度的躍遷與資料中心架構的重構
Rubin 是多少張 GPU 互聯?比現在最強的資料中心性能強多少?——本報告的分析結論如下:互聯規模的代際跨越:Rubin 架構引入了 Vera Rubin NVL144 平台,在一個機架內實現了 144 個 GPU 計算核心(Die) 的全互聯 1。這不僅在物理數量上是前代 Blackwell NVL72(72 個 GPU)的兩倍,更重要的是,通過第六代 NVLink(NVLink 6)技術,這 144 個核心建構了一個單一的、記憶體一致的邏輯計算域。這意味著模型可以像在一個巨大的 GPU 上運行一樣,在 144 個核心之間無縫共用記憶體和資料,徹底消除了節點間通訊的延遲瓶頸。性能增益的多維躍遷:相比當前最強的資料中心基準——Blackwell GB200 NVL72,Rubin 展現了多維度的性能提升:AI 推理性能(FP4):提升幅度約為 3.3 倍,達到 3.6 Exaflops 1。海量上下文處理(CPX):針對百萬級 token 的長上下文任務,Rubin CPX 平台的性能是 Blackwell 的 7.5 倍2。記憶體頻寬:整機架聚合頻寬從 NVL72 的 576 TB/s 激增至 1.7 PB/s,約為 3 倍 的提升 2。本報告將深入探討驅動這些數字背後的技術邏輯,包括 3nm 工藝製程、HBM4 記憶體革命、銅纜互聯物理學以及 600kW 功率密度帶來的熱力學挑戰。2. 宏觀背景:計算通膨與推理時代的黎明要理解 Rubin 架構的設計初衷,必須首先審視當前 AI 產業面臨的根本性矛盾:計算通膨(Computation Inflation) 與 記憶牆(Memory Wall) 的雙重擠壓 4。隨著大語言模型(LLM)從單純的文字生成轉向具備多步邏輯推理能力的“Agentic AI”(代理智能),計算範式正在發生深刻的轉移。2.1 從訓練原生到推理原生在 Hopper(H100)時代,資料中心的主要任務是模型訓練,這要求極高的浮點運算能力。然而,隨著模型部署的普及,推理(Inference)——尤其是長上下文、高並行的推理——成為了算力消耗的主體。Blackwell 架構通過引入 FP4 精度初步應對了這一挑戰,但 Rubin 則是為**“推理原生”**時代徹底設計的 2。Rubin 的出現不僅僅是為了更快的訓練,更是為瞭解決“百萬 Token 級”上下文的即時處理問題。在這一場景下,瓶頸不再是計算核心的速度,而是資料搬運的速度。因此,Rubin 架構的核心哲學可以概括為:以頻寬換算力,以互聯換延遲。2.2 摩爾定律的終結與系統級擴展隨著電晶體微縮逼近物理極限,單晶片性能的提升日益艱難。輝達 CEO 黃仁勳明確指出,未來的性能提升將不再依賴單一晶片,而是依賴“資料中心即晶片”的系統級設計 4。Rubin 架構正是這一理念的極致體現:它不再試圖製造一個超強的 GPU,而是試圖製造一個超強的機架(Rack),並讓這個機架在軟體層面表現為一個單一的邏輯單元。3. 矽基架構:Vera Rubin 超級晶片的技術解構Rubin 平台的核心建構模組是 Vera Rubin Superchip。這一異構計算模組整合了定製化的 Vera CPU 和下一代 Rubin GPU,通過 NVLink-C2C 實現晶片級的高速互聯。3.1 Rubin GPU 微架構:3nm 與雙芯封裝Rubin GPU 將採用台積電(TSMC)的 3nm 工藝(預計為 N3P 或後續最佳化版本)製造 6。相比 Blackwell 使用的 4NP 工藝,3nm 節點提供了顯著的電晶體密度提升和能效最佳化,這是在有限的功耗預算下實現性能翻倍的物理基礎。3.1.1 封裝策略:Die 與 GPU 的定義重構在分析 Rubin 的規格時,必須澄清輝達術語體系的變化。在 Blackwell B200 中,一個封裝(Package)包含兩個計算裸片(Compute Die)。在 Rubin 這一代,這種設計得到了延續並擴展:標準 Rubin GPU:包含 2 個全光罩尺寸(Reticle-sized)的計算裸片7。Rubin Ultra(2027年):預計將包含 4 個計算裸片1。因此,當我們討論 NVL144 時,我們指的是 72 個物理封裝,每個封裝內含 2 個裸片,總計 144 個計算核心1。這種設計使得輝達能夠在不突破光刻機掩膜版尺寸限制(Reticle Limit)的前提下,持續擴大單晶片的有效面積。3.1.2 記憶體革命:HBM4 的引入Rubin 架構最關鍵的技術躍遷在於首發搭載 HBM4(High Bandwidth Memory 4) 記憶體 6。相比 Blackwell 使用的 HBM3e,HBM4 帶來了質的飛躍:位寬翻倍:HBM4 將記憶體介面位寬從 1024-bit 擴展至 2048-bit8。這使得在同等時脈頻率下,頻寬直接翻倍。堆疊工藝:HBM4 採用了邏輯裸片與記憶體裸片的混合鍵合(Hybrid Bonding)技術,甚至可能直接堆疊在 GPU 邏輯晶片之上(3D 堆疊),從而大幅降低訊號傳輸的功耗(pJ/bit)。容量與頻寬:每個 Rubin GPU 封裝配備了 288GB HBM4 記憶體,頻寬高達 13 TB/s7。作為對比,Blackwell B200 的頻寬僅為 8 TB/s。這額外增加的 5 TB/s 頻寬,是 Rubin 能夠在推理任務中大幅領先 Blackwell 的核心物理原因。3.2 Vera CPU:徹底的架構自主與 Grace CPU 採用 ARM 標準 Neoverse 核心不同,Vera CPU 採用了輝達完全自訂的 ARM 架構核心 9。核心規格:單顆 Vera CPU 擁有 88 個物理核心,支援 176 個線程(SMT)11。戰略意義:Vera 的出現標誌著輝達在計算全端上的進一步收束。通過自訂核心,輝達可以針對 AI 資料預處理、CUDA 核心調度以及網路協議棧進行指令集等級的最佳化,進一步降低 CPU-GPU 之間的通訊延遲。Vera 與 Rubin 之間通過 1.8 TB/s 的 NVLink-C2C 互聯 1,確保了 CPU 記憶體與 GPU 視訊記憶體處於統一的定址空間。3.3 Rubin CPX:為“百萬上下文”而生在標準版 Rubin 之外,輝達還規劃了 Rubin CPX 變體。這是一個專為處理極長上下文(Massive Context)設計的 SKU 2。技術痛點:在處理長文件或生成長視訊時,Transformer 模型的 KV-Cache(鍵值快取)會佔用海量視訊記憶體,且注意力機制(Attention Mechanism)的計算複雜度隨序列長度呈二次方增長。CPX 解決方案:Rubin CPX 並沒有單純堆砌 FP4 算力,而是整合了專用的硬體單元來加速注意力計算,並最佳化了視訊記憶體管理機制。據官方資料,CPX 在百萬 token 級任務上的表現是 Blackwell 系統的 7.5 倍3。這表明 CPX 可能採用了類似於“Ring Attention”的硬體加速技術,利用 NVLink 6 的高頻寬在多個 GPU 間高效流轉 KV 塊。4. 互聯拓撲:NVLink 6 與 144 芯互聯架構(回答“是多少張GPU互聯”)回答使用者“是多少張GPU互聯”的核心在於解析 NVLink 6 互聯技術與 NVL144 機架架構。這是 Rubin 區別於所有競爭對手的護城河。4.1 NVL144:單一機架內的超級電腦Rubin 架構的旗艦形態是 Vera Rubin NVL144。這是一個液冷機架系統,其互聯規模達到了前所未有的高度:互聯數量:144 個 GPU 計算核心(Die)1。物理形態:72 個 Rubin GPU 封裝(每個含 2 個 Die) + 36 個 Vera CPU 1。互聯性質:全互聯、無阻塞(Non-blocking)、記憶體一致性域。在 NVL144 中,任意一個 GPU 都可以通過 NVLink Switch 直接訪問機架內其他 143 個 GPU 的 HBM4 記憶體,且訪問速度高達 3.6 TB/s。這與傳統的乙太網路或 InfiniBand 互聯有著本質區別:在軟體看來,這 144 個 GPU 就是一個擁有 ~41 TB 統一視訊記憶體(288GB x 144)的巨型 GPU。4.2 NVLink 6:銅纜的物理極限支撐這一互聯規模的是第六代 NVLink 技術。頻寬翻倍:NVLink 6 的雙向頻寬提升至 3.6 TB/s,是 Blackwell 所用 NVLink 5(1.8 TB/s)的 2 倍8。機架總頻寬:NVL144 機架背板的交換容量高達 260 TB/s1。物理介質:為了在機架內實現如此高的密度和極低的延遲,輝達繼續採用了**銅纜背板(Copper Backplane)**設計 13。儘管業界對光學互聯(Silicon Photonics)呼聲甚高,但在機架內部(<2米距離),銅纜依然具有功耗低、無需光電轉換延遲的優勢。NVL144 的背板是一個工程奇蹟,它整合了超過 5000 根高速銅纜,構成了一個類似脊椎的通訊骨幹。4.3 與 Blackwell NVL72 的對比通過對比可見,Rubin 並非簡單的數量堆砌,而是通過互聯頻寬的翻倍來支撐節點數量的翻倍,從而保證了**網路直徑(Network Diameter)**不隨節點增加而惡化,維持了極低的通訊延遲。5. 性能基準:超越最強資料中心(回答“強多少”)使用者關注的第二個核心問題是:“比現在最強的資料中心性能強多少?” 目前的基準是 Blackwell GB200 NVL72。Rubin 的性能提升並非單一數值,而是根據工作負載的不同呈現出分層差異。5.1 AI 推理性能(Inference):3.3 倍的躍升在 FP4(4-bit 浮點)精度下,Vera Rubin NVL144 的理論峰值性能達到 3.6 Exaflops(每秒 360 億億次運算)1。對比基準:Blackwell NVL72 的 FP4 性能約為 1.44 Exaflops。提升幅度:約 2.5 倍至 3.3 倍1。技術歸因:這一提升不僅源於 GPU 數量的翻倍(從 72 到 144),更源於 Rubin 架構 Tensor Core 的效率提升以及 HBM4 提供的 13 TB/s 頻寬,使得計算單元能夠滿負荷運轉,避免了“記憶體牆”導致的閒置。5.2 複雜推理與長上下文(CPX):7.5 倍的質變對於生成式 AI 的未來——即涉及數百萬 Token 上下文、視訊生成或複雜程式碼分析的任務——Rubin CPX 展現了驚人的統治力。性能資料:輝達宣稱 Rubin CPX 系統在“海量上下文推理”任務中比 GB200 NVL72 強 7.5 倍2。技術歸因:這 7.5 倍的差異遠超算力本身的提升,主要歸功於 CPX 針對 Attention 算子的硬體最佳化和 NVLink 6 的極低延遲。在長文字推理中,資料在 GPU 間的搬運是最大瓶頸,Rubin 的超高頻寬讓跨 GPU 的 KV-Cache 訪問如同訪問本地視訊記憶體一樣快。5.3 訓練性能(FP8):穩健增長在傳統的模型訓練(FP8 精度)方面,Rubin 的提升相對溫和但依然顯著。性能資料:NVL144 提供 1.2 Exaflops 的 FP8 算力 1。對比基準:Blackwell NVL72 約為 720 Petaflops。提升幅度:約 1.6 倍。解讀:訓練任務對計算密度的依賴高於記憶體頻寬,因此提升幅度更接近於電晶體規模的線性增長。但考慮到 Rubin 支援更大的單節點模型,其實際訓練效率(收斂速度)可能高於理論算力的提升。5.4 性能資料彙總表以下表格總結了 Rubin NVL144 與 Blackwell NVL72 的關鍵性能對比:6. 熱力學與基礎設施:600kW 的工程挑戰Rubin 架構的性能飛躍並非沒有代價。為了在單一機架內壓縮 144 個高性能 GPU 和 36 個 CPU,其對資料中心的基礎設施提出了極其嚴苛的要求。6.1 功率密度的爆炸:邁向 600kW雖然標準的 NVL144 機架功耗預計在 120kW - 140kW 左右(與 NVL72 相似),但 Rubin 架構的終極形態——Rubin Ultra NVL576——預計將單機架功耗推向 600kW 的恐怖量級 10。對比:傳統企業級機架功耗僅為 10kW 左右;即使是當前的高密度 AI 機架通常也在 40-50kW。Rubin Ultra 的 600kW 相當於將一個小區的用電量壓縮到了一個衣櫃大小的空間內。6.2 800V 高壓直流供電(HVDC)為了應對如此巨大的電流,傳統的 48V 配電架構已徹底失效(電流過大會導致銅排熔化)。Rubin 平台推動了 800V 直流配電 標準的落地 17。原理:根據 $P=UI$,在功率 $P$ 極大的情況下,提高電壓 $U$ 是降低電流 $I$ 的唯一途徑。800V 架構允許使用更細的母線(Busbar),減少傳輸損耗,並提高電源轉換效率。6.3 液冷成為唯一選項對於 Rubin NVL144,風冷已在物理上不可行。該系統採用了 100% 全液冷設計14。Kyber 機架:輝達為 Rubin 重新設計了名為“Kyber”的機架架構(接替 Blackwell 的 Oberon 機架)。Kyber 專為高密度液冷最佳化,冷卻液直接流經 GPU、CPU 和 NVSwitch 晶片表面的冷板(Cold Plate),並通過機架內的 CDU(冷卻分配單元)進行熱交換。這意味著部署 Rubin 的資料中心必須具備完善的液體回路基礎設施。7. 軟體生態與經濟學模型硬體的堆砌只是基礎,Rubin 的真正威力在於其軟體棧和經濟效益。7.1 CUDA 與 NIM 的進化為了駕馭 144 晶片的互聯域,輝達的 CUDA 軟體棧將進一步演進。Rubin 將深度整合 NVIDIA NIM (NVIDIA Inference Microservices),這是一套預最佳化的微服務容器,能夠自動識別底層的 NVL144 拓撲,並將模型層(Layer)智能切分到不同的 GPU Die 上,以確保儲存和計算的負載平衡 4。7.2 代幣經濟學(Tokenomics)雖然 Rubin NVL144 機架的單價將極其昂貴(預計數百萬美元),但其 TCO(總體擁有成本) 在大規模推理場景下可能反而更優。推理成本降低:由於 Rubin CPX 在長上下文任務上擁有 7.5 倍的性能優勢,這意味著單位 Token 的生成能耗和時間成本大幅下降。對於像 OpenAI、Anthropic 這樣每天處理數十億 Token 的服務商而言,Rubin 是降低營運成本的必要工具。8. 結論與展望輝達的 Rubin 架構不僅僅是一次產品的迭代,它是對“摩爾定律已死”這一論斷的有力回擊。通過將 144 個 3nm GPU 封裝在一個通過 NVLink 6 互聯的單一機架中,輝達成功地將計算的邊界從微米級的晶片擴展到了米級的機架。回答使用者的核心疑問:互聯規模:Rubin 實現了 144 張 GPU(裸片) 的全互聯,建構了當前世界上密度最大的單一記憶體計算域。性能對比:相比當前最強的 Blackwell NVL72,Rubin 在 AI 推理上強 3.3 倍,在處理長上下文任務時強 7.5 倍,在記憶體頻寬上強 3 倍。Rubin 的出現標誌著 AI 基礎設施正式進入了“巨型機”時代。在這個時代,資料中心的衡量單位不再是伺服器的數量,而是機架(NVL144)的數量。對於追求極致算力的科研機構和科技巨頭而言,Rubin 不僅是下一代工具,更是通往通用人工智慧(AGI)的物理基石。 (成癮大腦神經重塑)
當 AI 遇上區塊鏈:GPU 從挖礦工具到通用算力資源
在以太坊轉向 PoS 之後,顯示卡挖礦迅速退出主流舞台。大量 GPU 裝置不再用於區塊鏈共識計算,這一變化一度被視為“顯示卡時代的終結”。但事實恰恰相反。這些 GPU 並未消失,而是進入了另一個增長更快的技術領域——人工智慧計算。本文將解釋一個關鍵問題:為什麼 GPU 會在區塊鏈挖礦結束後,重新成為 AI 時代的重要基礎資源?一|以太坊合併之後,GPU 並沒有“失業”在 PoW 時代,以太坊大量依賴 GPU 執行雜湊計算。當共識機制切換至 PoS 後,這一需求迅速消失。從表面看,GPU 的區塊鏈用途被削弱;但從計算結構上看,GPU 的核心優勢並未改變:高平行計算能力對矩陣運算與向量計算高度友好適合處理非結構化、高複雜度任務這些特性,恰恰是現代 AI 模型所依賴的計算基礎。二|AI 模型對算力的需求正在迅速擴張大模型訓練與推理帶來的算力需求,已遠超傳統網際網路應用。當前 AI 行業面臨的核心問題並非演算法,而是計算資源的獲取:高端 GPU 供給有限中心化雲服務成本持續上升資源集中於少數大型雲廠商這使得算力逐漸成為一種稀缺的基礎設施資源,而不僅是技術元件。三|Web3 的角色:協調分佈式算力資源在這一背景下,Web3 的價值不在於“挖礦”,而在於其擅長解決的問題類型:如何在沒有中心調度者的情況下,協調分散、異構、地理分佈的計算資源。區塊鏈在此扮演的角色包括:任務分配與結算資源使用的可驗證性激勵與懲罰機制跨主體的信任協調這使得分佈式 GPU 資源可以被組織為可用的計算網路。四|GPU 與 ASIC 的功能分化正在加速在當前技術結構下,GPU 與 ASIC 的分工更加明確:ASIC:專用於特定演算法(如 SHA-256),適合長期、穩定、安全優先的系統(如比特幣)。GPU:通用平行計算裝置,適合 AI 推理、訓練、圖形渲染等高複雜度任務。這並不是“誰取代誰”的關係,而是計算資源專業化的結果。五|算力正在成為新的基礎設施層無論是在區塊鏈安全、AI 模型推理,還是分散式運算領域,算力都正在從“技術細節”轉變為“基礎設施”。在這一過程中:區塊鏈提供協調與結算機制AI 提供持續增長的算力需求GPU 成為連接兩者的關鍵硬體節點這並不意味著所有算力都會被代幣化,而是意味著算力本身正在被系統性組織與定價。結語GPU 從以太坊挖礦中退出,並不代表其價值消失。相反,它進入了一個需求更廣泛、用途更明確的計算時代。在 Web3 與 AI 的交匯點,真正發生變化的不是“挖礦方式”,而是算力在整個數字系統中的角色定位。 (方到)
比GPU性能更強?TPU全解析(AI算力、Google、輝達、智算中心)
AI能在幾秒內處理百萬條資料,背後靠的是什麼晶片?常聽人說GPU支撐AI算力,那TPU又在起什麼作用?它和我們手機裡的晶片有本質區別嗎?實際上TPU就像AI的專屬廚師,專門做AI最需要的算力工作,不多但精準高效。一、TPU1、TPU不是一開始就為通用AI設計的很多人以為TPU從誕生就針對大模型訓練,其實它最初是Google為自家業務定製的工具。Google ML發展關鍵時間線(2011-2015)2015年前後,Google的搜尋排序、語音識別這些服務需要大量重複的數值運算,當時的GPU處理起來總有些力不從心,要麼速度不夠,要麼耗電太多。Google工程師乾脆重新設計晶片架構,把所有計算資源都集中在這類運算上,這就是第一代TPU的由來。後來大模型興起,大家才發現這種架構剛好符合AI的需求,TPU才從Google內部走向公開市場。TPU v12、TPU不用常見的快取設計普通電腦和手機晶片裡,快取是個重要部件,就像書桌邊的抽屜,常用的東西放裡面方便拿。可是TPU不怎麼依賴快取,反而用了超大頻寬的記憶體。這是因為AI運算的特點和普通計算不一樣,它需要處理海量連續的資料,比如一張圖片的像素點或者一段文字的編碼,這些資料要不斷輸入計算單元。快取的容量再大也裝不下這麼多連續資料,換成高頻寬記憶體,就能像消防水管送水一樣,把資料快速送到計算部分,反而更高效。二、晶片設計1、架構設計TPU的設計第一步就是設計架構,這就像蓋房子先畫圖紙,決定了晶片的性能上限。架構設計要先明確晶片的用途,是給大模型訓練用,還是給智能音箱這類裝置做推理用。訓練用的TPU需要更強的平行計算能力,能同時處理海量資料;推理用的TPU則更看重能效比,不能太耗電。Google最新的Trillium TPU就是典型的訓練型架構,把多個計算部分連在一起,還最佳化了資料傳輸的路徑,相比上一代訓練速度提升了4倍多,能耗反而降了不少。TPU v4 架構2、演算法適配比單純增加參數更重要設計TPU不能只看硬體參數,還要和AI演算法配合好。不同的AI模型,比如圖像識別和語言翻譯,運算邏輯不一樣。如果晶片架構和演算法不匹配,就算參數再高也沒用,就像用菜刀砍骨頭,再鋒利也不如斧頭順手。Google的TPU能在Gemini模型上做得很好,就是因為設計時針對多模態模型的運算特點做了最佳化,比如加強了對圖像和文字混合資料的處理能力。國內企業設計TPU時,也會針對政務、金融這些領域的特定演算法做調整。人工智慧模型訓練計算量趨勢圖3、IP核採購TPU設計不用所有部分都從零開始,有些通用模組可以直接買現成的IP核。IP核就像現成零件,比如記憶體控製器、介面模組這些,有專業公司專門研發銷售。買IP核能節省大量時間,不用再花幾年研發這些成熟技術,還能降低風險。大部分中小設計企業都會用這種方法,只專注於TPU主要計算部分的設計。Google這樣的大企業,為了追求最好的性能,會自己研發所有IP核,但投入的研發費用往往要數十億。三、晶圓1、矽片TPU的製造要從矽片開始,這種高純度的矽片表面光滑,純度要達到99.9999999%以上,一點雜質都可能影響晶片性能。矽片的尺寸也很重要,現在主流是12英吋矽片,一片就能切割出幾百個TPU晶片,比小尺寸矽片的效率高很多。生產矽片的過程很複雜,要經過晶體生長、切片、拋光等幾十道工序,國內的中環股份、滬矽產業都能生產這種高純度矽片,不過高端產品還需要進口。2、光刻光刻就像給矽片刻上電路圖案,是製造環節最重要的一步。這個過程需要用光刻機,把設計好的電路圖案通過雷射投射到塗了光刻膠的矽片上,再用化學藥劑蝕刻,形成電路紋理。TPU的製程越先進,光刻的難度就越大。目前主流的TPU用7奈米或5奈米製程,需要極紫外光刻機才能完成。全球能生產這種光刻機的企業很少,台積電就是靠掌握先進光刻技術,成為Google、蘋果等企業的TPU代工廠。3、摻雜工藝矽本身的導電性能一般,需要通過摻雜工藝來調整。簡單來說就是在矽片的特定區域注入硼、磷這些雜質,形成PN接面,這樣才能控制電流,讓晶片完成計算。摻雜的精度要求極高,雜質的濃度和注入深度都要精確到奈米等級。不同的計算部分,摻雜的參數不一樣,比如TPU的主要計算區域需要更高的導電效率,摻雜濃度就會高一些;而外圍的控制區則需要更穩定的性能,摻雜參數會更穩。四、封裝測試1、封裝晶圓切割成單個晶片後,下一步就是封裝。封裝主要有三個作用:一是保護晶片不受潮濕、灰塵這些外界環境影響;二是引出晶片的電極,方便和外部電路連接;三是幫晶片散熱——TPU工作時會發熱,封裝材料和結構都影響散熱效果。訓練用的TPU功率大,所以會用更複雜的倒裝封裝技術:把晶片正面朝下貼在基板上,這樣散熱路徑更短。國內像長電科技、通富微電這些企業都能做TPU封裝,技術水平和國際企業差不了多少。2、測試要過三道關封裝好的晶片不能直接出廠,得經過嚴格測試,主要有三道關。第一道是性能測試,用專門裝置給TPU輸入測試資料,檢查計算速度、精度這些指標是否符合要求——Google的TPU還會專門測試在Gemini模型上的訓練效率。第二道是穩定性測試,把TPU放在高溫高濕的環境裡連續工作幾百小時,看看會不會出故障。第三道是功耗測試,測測不同負載下的耗電量,確保符合設計要求。不合格的晶片會被標記淘汰,合格率直接關係到企業的成本。能效比例3、模組化設計現在的TPU大多用模組化封裝,把多個晶片整合到一個模組裡——比如Google的TPU Pod就是由好幾個TPU晶片組成的。這種設計有兩個好處:一是組合起來方便,根據需求拼接不同數量的模組,就能滿足不同的算力需求;二是維護起來省事,如果某個晶片壞了,只換對應的模組就行,不用把整個裝置都廢掉。智算中心裡的TPU叢集都用這種方式,維護人員不用拆開晶片,直接換模組就能解決問題,能省不少停機時間。五、材料供應1、聚氨酯材料這裡說的聚氨酯材料和晶片不是一回事,但在TPU產業鏈裡也挺重要的。汽車車衣用的就是熱塑性聚氨酯材料,彈性好、耐老化,還能防刮擦。張家界有家企業專門做這種材料,全球市場佔有率能到90%,連阿迪達斯的運動鞋都用他們的TPU膠膜來粘接。生產這種材料需要高品質的聚酯多元醇,國內的華峰化學通過收購企業,打通了從原料到成品的全鏈條,成本比進口材料低很多。2、光刻膠光刻膠是光刻環節必須用的材料,塗在矽片表面,經過雷射照射後會發生化學反應,形成可以蝕刻的圖案。光刻膠的質量直接影響電路精度,先進的5奈米製程得用極紫外光刻膠,這種材料研發難度很大,成分配比要精確到百萬分之一。現在國內企業已經能生產28奈米製程用的光刻膠,高端的還得從日本或者美國進口。光刻膠的儲存條件也挺嚴格,得放在低溫環境裡,不然會失效。3、散熱材料TPU工作時產生的熱量要是不能及時散出去,會影響性能甚至縮短壽命,所以散熱材料就很關鍵。封裝環節會用到散熱膏和散熱片:散熱膏填在晶片和散熱片之間的縫隙裡,能提高導熱效率;散熱片則增大散熱面積,把熱量傳到空氣裡。大功率的TPU叢集還需要專門的液冷散熱系統,用冷卻液把熱量帶走。國內像高瀾股份、同飛股份做的液冷系統,已經用到不少智算中心的TPU叢集裡了,散熱效率比傳統的風冷高3倍多。六、終端整合1、智算中心是TPU的主要陣地智算中心就像TPU的大本營,很多TPU在這裡組成叢集,給AI企業提供算力服務。天津移動建的TPU智算中心,通過最佳化叢集佈局和散熱系統,單位算力成本降了很多。這些智算中心會根據客戶需求,提供不同的算力套餐:比如給科研機構提供大模型訓練用的高算力服務,給中小企業提供智能客服推理用的輕量算力服務。像視拓雲這樣的企業,還把TPU算力做成了零售業務,客戶按需購買就行,不用一次性投很多錢建機房。2、汽車行業TPU在汽車行業的應用分兩種:一種是晶片,一種是材料。晶片方面,有些智能汽車的自動駕駛系統會用TPU做推理,處理攝影機和雷達傳來的路況資料,判斷行人和車輛的位置。材料方面,汽車車衣用的熱塑性聚氨酯材料越來越常見,納琳威做的真漆車衣,還能適配特斯拉賽博皮卡的不鏽鋼車身,貼合度特別高。易車和邦泰集團合作研發車用TPU粒子,做成的車衣性價比更高,已經覆蓋了從一線到三四線城市的門店。3、小型化TPU智慧型手機、智能音箱這些消費電子產品,需要的是小型、低功耗的TPU。智能音箱裡的TPU,主要負責語音識別的推理,能把使用者的語音指令快速轉成文字,還能理解意圖。這種TPU尺寸很小,有的只有指甲蓋那麼大,功耗也低,一節電池就能支援長時間工作。國內的瑞芯微、全志科技都做這類小型TPU,很多智能家電廠商都會買。有些高端耳機裡也會裝小型TPU,用來最佳化降噪演算法。Coral Edge TPU與NVIDIA GTX 1080 GPU在最大功耗和每瓦特運算性能上的對比七、市場規模情況1、全球市場增長速度很快TPU所屬的智能算力市場,這幾年漲得特別快。2024年全球AI算力市場中,GPU和TPU主導的智能算力規模超過了750億美元。有機構估計,2025年這個數字會跳到3500億美元,差不多翻五倍。這當中TPU的佔比還在慢慢上升,特別是Google推出Trillium TPU後,不少企業開始換成TPU來做訓練和推理。Meta甚至打算從2027年開始,在自家資料中心裡裝Google的TPU,這筆單子說不定能到幾十億美元呢。2、中國市場增速超過全球平均中國智能算力市場的增長速度比全球平均還要快。根據IDC和浪潮資訊的報告,2025年中國人工智慧算力市場規模能到259億美元,比去年漲了36.2%。TPU的用途現在越來越多,政務、金融、製造這些行業都在往裡面砸錢。天津、上海這些大城市都在蓋TPU智算中心,中國移動打算到2028年底建成本國最大的智算設施,裡面會裝很多國產TPU。國產TPU的市場份額也在往上走,寒武紀、華為的TPU在國內政務領域用得已經挺多了。3、不同應用場景的市場差異大TPU的市場分佈不太均勻,智算中心佔了大部分,大概能有70%以上。為何呢?因為大模型訓練和推理需要好多TPU湊成叢集,一套裝置的投入就不低。汽車行業的TPU市場漲得最快,特別是自動駕駛和車衣材料這兩塊,2025年的漲幅可能超過50%。消費電子領域的TPU市場規模不算大,但勝在穩,每個智能裝置裡都得有個小TPU,賣出去的數量特別多。材料類的TPU市場也不小,光汽車車衣和運動鞋這兩個地方,全球一年賣的錢就超過一百億美元。八、市場競爭態勢1、Google和輝達國際上TPU市場主要是Google和輝達在搶地盤,不過兩家擅長的地方不一樣。Google的TPU在AI訓練這塊優勢很明顯,特別是和自家Gemini模型搭著用的時候,效率比輝達的GPU高不少,還更省電。輝達則在生態這塊更厲害,好多AI框架都先適配GPU,企業要換成TPU得調整演算法,難度相對大一點。但這種情況正在改變,Google通過雲服務把TPU租給其他公司,Meta這樣的大公司也開始考慮用了,Google在市場上的說話份量慢慢變重了。2、國內企業細分領域國內的TPU企業沒直接和Google、輝達硬碰硬,而是從細分領域入手。寒武紀的TPU主要針對政務和金融行業,這些地方對安全性要求高,國產晶片更吃香。華為的TPU則和自家鴻蒙系統、雲服務綁在一起,在智能汽車和工業網際網路這塊推。材料領域的國內企業表現更亮眼,張家界齊匯新材料在運動鞋用TPU膠膜市場佔了全球90%的份額,邦泰集團在車用TPU粒子這塊的國內市場佔比超過60%。這些企業通過盯著細分市場做,給自己築起了一道競爭的牆。九、需求分析1、網際網路科技巨頭網際網路科技巨頭是TPU的主要客戶,尤其是那些做AI大模型的公司。Google、Meta、百度、阿里這些企業,每年都會買好多TPU搭成算力叢集,用來訓練模型和做推理。他們買TPU的時候最看重性能和穩不穩定,對價格不太在乎。Google自己做TPU,同時也把算力租給其他公司;百度則混著用國產和進口TPU,重要業務用進口的,邊緣業務用國產的來省錢。這些巨頭買的量很大,一單就能佔企業年銷售額的20%以上。2、製造企業製造企業買TPU主要用在兩個地方,一是生產線上的智能檢測,用TPU處理攝影機拍的產品圖片,找出缺陷;二是生產TPU材料做的東西,比如汽車零件、運動鞋材料。這些企業買的時候最看重性價比,不會瞎買高端產品。汽車零件廠商會選國產的中低端TPU晶片,足夠滿足檢測需求,價格比進口的低30%以上。買材料這塊,他們會和供應商長期合作,比如阿迪達斯就把齊匯新材料當成最大的TPU膠膜供應商,兩家還一起研發新產品。3、科研機構和政務部門科研機構和政務部門買TPU,安全是第一個要考慮的。高校和科研院所買TPU主要用來研發AI演算法,他們需要晶片能靈活擴展,適配不同的實驗場景。政務部門買的TPU則主要用在人口統計、交通管理這些地方,資料很敏感,必須用通過安全認證的國產晶片。寒武紀的TPU就通過了好幾個政務安全認證,在好多城市的智能交通系統裡都在用。這些客戶買的量雖然不如巨頭,但訂單穩,給錢也比較快。十、TPU和GPU誰更厲害1、訓練場景TPU更有優勢在AI模型訓練場景裡,尤其是大模型訓練,TPU的優勢很明顯。因為訓練過程需要反覆做矩陣運算,TPU的架構就是專門為這個做的,所有計算資源都集中在這事兒上,沒有多餘功能浪費資源。Google的Trillium TPU訓練Gemini模型時,速度比輝達最新的GPU快4倍,能耗卻低67%。這就意味著訓練同一個模型,用TPU能省好多時間和電費,對經常要訓練模型的企業來說,這筆省下來的錢可不少。2、推理場景兩者各有千秋推理場景就是模型訓練完後,處理實際資料的過程,比如語音識別、圖像分類。這種場景下TPU和GPU各有各的好,得看具體用在那兒。如果是單一任務的大量推理,比如智能音箱的語音識別,TPU更高效,成本也更低。如果是複雜的多工推理,比如自動駕駛同時處理路況、行人、交通燈這些資訊,GPU的通用性更強,能同時處理不同類型的運算,更佔優勢。好多企業會混著用,簡單任務用TPU,複雜任務用GPU。3、生態完善度GPU領先雖然TPU在性能上有優勢,但GPU的生態更成熟,這也是好多企業不願換的原因。現在市面上大部分AI框架、演算法庫都是先適配GPU的,企業要是改用TPU,得重新調整演算法程式碼,還要培訓工程師,花的錢不少。Google為了打破這個局面,做了兩件事:一是開放自己的AI框架,讓開發者更容易適配TPU;二是通過Google雲提供TPU算力服務,企業不用自己買晶片,直接租就能用,降低了換用的難度。隨著越來越多企業試著用,TPU的生態也在慢慢變好。 (小叔報告)
輝達H200獲批 未來中國AI晶片格局分析
先說下結論,H200的短期解禁對中國AI晶片產業的直接影響有限,但長期將嚴重拖慢中國建立獨立、有競爭力的AI晶片生態系統的處理程序。此舉本質是美國在確保代差優勢的前提下,通過輸出上一代高性能產品,既滿足中國經濟需求以獲取高額利潤,又維持中國對其技術生態的依賴,從而遏制中國在AI基礎架構領域的自主突破。從H20到H200:性能的代際飛躍與法規背景的嬗變讓我們先來回顧一下當H20誕生的背景。2023年10月17日,美國商務部工業與安全域(BIS)更新了針對中國的先進計算出口管制規則(即“1017規則”)。該規則設定了兩個關鍵的性能密度閾值,以決定晶片是否需要許可證且“推定拒絕”:性能密度閾值一:晶片的總算力(TPP)除以晶片面積(die size)必須低於一個特定值。性能密度閾值二:晶片的總算力(TPP)除以晶片尺寸的平方(即TPP/(晶片尺寸)^2)必須低於另一個特定值。輝達最初為中國市場設計的合規晶片H800(基於Hopper架構的H100降規版),因在互連頻寬上受限,但計算核心未做大改動,其性能密度仍可能觸及或超過BIS設定的閾值。因此,為了完全合規並獲得出口許可,輝達被迫推出了性能進一步大幅閹割的H20。H20不僅在互連上受限,更在核心計算單元(SM)數量、核心頻率、記憶體頻寬上進行了深度削減,使其總算力(TPP)大幅降低至約2,368,確保其性能密度落在BIS允許的範圍內。一定得瞭解美國到底是怎麼做的限制,我們才能有分析的基礎,連怎禁怎算性能密度都搞不明白,分析出來的東西必然也會有所缺失。H200的性能躍升:對“1017規則”事實上的突破本次獲批的H200是Hopper架構的滿血版資料中心GPU。關鍵參數對比如下:顯然,H200的性能(尤其是TPP)已遠超為符合“1017規則”而生的H20。其獲批出口,並非因為“1017規則”被修改,而是BIS在執法上採取了更靈活的方式,通過發放特別許可證的方式,為超出限制的硬體開了綠燈。這標誌著美國對華晶片管制策略從“嚴格禁止”轉向“管制性開放”,即在確保對華保持至少一代(對比Blackwell)技術代差的前提下,允許上一代旗艦產品進入中國市場。與Blackwell的差距作為參照,輝達當前最新的Blackwell架構旗艦晶片(如B200/B300)性能更為恐怖。美國允許對中國出口H200而非Blackwell,清晰表明了其“放行舊款,鎖死新款”的核心策略,旨在維持至少18-24個月的技術代差。H200與中國國產AI晶片的參數與技術對比根據Bernstein報告的資料對比,中國國產最強AI晶片與H200仍存在全方位差距:中國國產晶片在單卡峰值算力上正在快速追趕,但在決定實際可用性的製程、封裝、尤其是軟體生態和叢集解決方案上,與H200代表的國際主流水平存在代際差距。Bernstein報告的輝達與中國國產各家AI晶片的性能天梯圖,筆者認為相對合理,因為從製程,晶片面積的物理層面,他們的TPP差距是完全合邏輯的。2024-2025年中國AI晶片市場格局2024-2025年:“多種途徑滿足算力”的過渡期,2024-2025年中國AI算力需求並未因管制而停滯,而是通過 “六條腿走路”的混合模式得以滿足:1.採購合規的輝達H20(2024年約百萬張,25年上半年交付約40~50萬,下半年為零)。2.通過特殊管道獲取受限的H100/H200(2024年約40-50萬張)。3.在海外(如新加坡、中東)建設或租賃資料中心。4.採購中國國產GPU(升騰、寒武紀、崑崙芯等,2024年合計約30-45萬張)。5.CSP(雲服務商)自研ASIC晶片(如阿里平頭哥、百度崑崙)。6.軟體最佳化(如模型小型化、低精度訓練)。關鍵特徵:中國國產晶片基數低但增長快:2024年本土AI晶片出貨約190-210萬張,其中中國國產佔比仍低,但寒武紀、升騰等廠商出貨量在2025年均預計實現翻倍以上增長。H20不受歡迎:由於性能差且存在“後門”安全疑慮,中國CSP採購H20意願低,其庫存積壓嚴重。總量受限,結構變化:2025年本土部署的AI晶片總數預計與2024年持平(約200萬張),但中國國產佔比將顯著提升,增量算力需求主要由海外資料中心承接。2026年市場格局預測H200入局後的新博弈隨著H200在2025年底獲准進入,2026年中國AI晶片市場將呈現以下新局面:輝達份額強勢回升:H200預計將在2026年實現 “百萬張等級”的出貨,迅速奪回其在華高端訓練市場的份額。其成熟的即插即用特性將深受大廠青睞。中國國產晶片繼續高增長,但路徑分化:○ 華為升騰:憑藉信創市場基本盤和持續技術迭代,預計出貨量將達到140-160萬張,成為中國國產絕對主力,但主要市場可能仍集中在政務、國企及部分推理場景,但隨著升騰NPU的架構調整,2026年CSP業務將有所斬獲,預計25~35萬張。○ 其他中國國產GPU:如寒武紀(預計14-17萬張)、沐曦、摩爾線程等,將繼續在 “性能-生態-成本”的夾縫中求生存,重點拓展對CUDA生態依賴較低、或對中國國產化有強制要求的細分市場。○ CSP自研ASIC:預計達到30萬張規模,主要用於自身業務的特定推理或部分訓練負載,是巨頭實現供應鏈自主的關鍵一環。總體格局: 2026年中國國產晶片總出貨(按單Die計)有望達到 200萬顆左右,實現高速增長。然而,H200的百萬級出貨將牢牢卡住AI產業皇冠上的明珠——高端智能訓練市場。中國國產晶片的“高增長”更多是源於基數低和在非核心賽道的替代,而非在核心戰場戰勝了輝達,雙方的差距還是在擴大中。核心影響與戰略結論1.短期影響有限,長期拖累生態建立:短期內,H200解決了中國高端AI算力的燃眉之急,利多中國AI應用層發展。中國國產晶片因基數低,在政策保護和特定市場驅動下,仍將保持增速。但長期看,H200的**“溫水池效應”** 將極大緩解中國廠商和開發者逃離CUDA生態的緊迫感,顯著拖慢中國自主AI晶片軟硬體生態的成熟速度。2.美國實現“一石三鳥”:l經濟上:清理舊款庫存,獲取巨額利潤及25%分成。l技術上:維持代差,用舊款產品抑制中國自主技術迭代。l戰略上:延續中國對其技術體系的依賴,將中國鎖定在產業鏈的應用層,而非基礎架構層。3.對中中國國產業的警示:H200的放行是一次清晰的戰略訊號。它意味著,依靠外部提供“次優解”來滿足發展需求,將永遠無法實現真正的科技自主。中國AI晶片產業的最終破局,不在於造出與H200參數接近的晶片,而在於能否建構一個足以讓開發者心甘情願離開CUDA的、有生命力的完整生態。這需要政策、市場、技術研發前所未有的協同與定力。而且這一次H200的解禁,筆者推演過程看到的是,雖然2026年中國國產AI晶片的高增長不受影響,但2027年中國國產AI晶片有可能不再高速增長。主要生態建立不足,且晶片製程的受限,軟硬體的差距都在擴大中,即便中國國產晶片在系統的提升是下了很大功夫,但也無法逃脫製程落後的物理定律。輝達H200獲准對華銷售,是一場精心計算的戰略妥協。它為中國AI產業提供了短期的算力緩解,但同時也套上了一副更為精緻的生態枷鎖。中國若滿足於此“溫水”,則自主生態的建立將前路漫漫;唯有保持戰略清醒,堅持對基礎生態的投入,方能在長遠的競爭中贏得主動。 (Techcoffee)
H200獲批出口中國,輝達GPU:迎來新爭議
據川普最新社交媒體消息透露,美國政府計畫允許輝達(Nvidia)對華出口其H200晶片,這是這家AI晶片設計公司為維持其在世界第二大經濟體的市場准入所做努力的最新轉折。美國商務部計畫批准許可,允許輝達向中國出售其H200。其中一位知情人士稱,該晶片的性能高於此前獲准銷售的H20,但不如該公司今年發佈的頂級Blackwell產品,也不如明年將推出的Rubin系列晶片。值得一提的是,後面這兩款產品還是在限製出售名單裡。知情人士稱,此舉是在美國總統川普與輝達首席執行長黃仁勳(Jensen Huang)上周會晤之後做出的,兩人在會晤中討論了H200的出口問題。熟悉相關討論的知情人士稱,包括AI總監大衛·薩克斯(David Sacks)和商務部長霍華德·盧特尼克(Howard Lutnick)在內的一些官員支援出口H200,因為這可能是一個很好的折衷方案,既能讓輝達與中國公司競爭,又不會讓中國在AI領域超越美國。今年早些時候,川普政府批准對華出口H20,作為交換,銷售額的15%將上繳美國政府,但中國方面卻以所謂的安全擔憂為由,告知本國公司不要使用這些晶片。一些分析師認為,中方的這一資訊是一種談判策略,目的是為了獲得像H200這樣更好的晶片。目前尚不清楚這項15%的協議是否會適用於H200的銷售。智庫Institute for Progress估計,H200的性能幾乎是H20的六倍。輝達新一代產品的性能通常會有巨大提升。拜登政府對關鍵晶片實施了出口限制,許多分析師認為這些限制措施限制了中國國內半導體和AI能力的發展。投資者將關注中國對H200預期獲批的反應,以及美國能獲得什麼回報(如果有的話)。此舉可能為輝達帶來數以十億美元計的銷售額,並幫助那些一直難以獲得頂級晶片來訓練其模型的中國科技巨頭。黃仁勳稱,應允許輝達在中國市場競爭,因為中國擁有許多世界頂尖的AI研究人員,而美國應該希望他們使用美國技術。黃仁勳也明確表示,中國的AI需求規模使該國對輝達的未來至關重要。黃仁勳上周在智庫戰略與國際問題研究中心(CSIS)的一場活動上說:“你無法取代中國。”毫無疑問,在H200出口中國的問題上,黃仁勳獲得了勝利。但對輝達來說,還有另外的問題需要應對。一位博主質疑GPU出貨量在社交媒體上,有一位自稱律師的博主Kakashii一直對輝達的GPU有很多的質疑。最近,他在論壇上發表了一篇詳細的帖子,引發了人們對輝達最新一代 GPU 的重新審視。在文章中,Kakashii質疑了黃仁勳關於 Blackwell GPU 已出貨 600 萬塊的說法。據CNBC報導,黃仁勳在 2025 年 10 月表示,對輝達晶片的需求仍在激增,並指出該公司在過去四個季度中已出貨 600 萬塊 Blackwell GPU 。當時,他還表示,輝達預計Blackwell 系列和明年的Rubin系列GPU 的總銷售額將達到 5000 億美元。根據 Kakashii 在 X 上分享的分析,自 Blackwell 發佈以來,輝達報告的 1110 億美中繼資料中心收入似乎與該出貨量不符。即使考慮到輝達在 2024 年第四季度 Blackwell 營收中披露的超過 100 億美元的收入,該帖子認為這些數字僅代表大約 400 萬台裝置,留下了數十萬到數百萬台 GPU 的潛在缺口。以下為該博主的原文摘譯:由於 Blackwell 推出,輝達報告 GPU 資料中心收入達到 1110億美元。如果簡單計算,自 Blackwell 開始出貨以來,資料中心報告的 1110 億美元收入中 600 萬塊 Blackwell GPU 並不匹配,因為這只代表 250 萬到 350 萬顆 Blackwell 晶片。讓我們試著幫輝達,把他們 2024 年第四季度報告的“Blackwell 收入超過 100 億”加起來。這使得總收入超過 1210 億美元。超過 100億 的晶片數量大約是 25 萬到 33 萬,理想情況下,這讓我們擁有近 400 萬塊 Blackwell GPU,但還是不匹配。好,我們再試一次計算。我們再假設黃仁勳說的是實話,他指的是所有細分市場中Blackwell 晶片的總銷量。這意味著 250 萬到 350 萬塊 Blackwell 晶片收入歸入 1110億,而剩餘的 350 萬到 250 萬塊則用於遊戲及其他細分領域。因為我們相信 Jensen,並且試圖找出我的計算不符的地方,我假設他指的是所有細分市場,也就是所有出貨 GPU 的 20%,而另外 80%用於資料中心。這意味著即使我們把輝達在 Blackwell 的第四季度收入算進去,假設 80%流向資料中心,我們還有 50 萬到 80 萬塊 GPU 的差距。但還是不匹配。為了印證這個說法,Kakashii又從能源方面進行了說明。如他所說,黃仁勳曾表示,自 2025 年 1 月以來,輝達已經出貨了 600 萬塊 Blackwell GPU。大約 65%到 70%的 GPU 會送到美國的資料中心。要為這 600 萬 GPU 中 65%到 70%(約 390 萬到 420 萬 GPU)供電,你需要大約 85吉瓦(gigawatts :GW)) 到 11 吉瓦的資料中心容量。(供參考,這個發電量大致相當於新加坡的總發電能力,或大約十座標準核反應堆。)2024年至2025年間,美國在2024年建成了3.8至4.2吉瓦,2025年估計為4.5至5.0吉瓦,合計8.5吉瓦(先不考慮因電力延遲,實際交付的約一半在日歷年內完成)。所以我們充其量只有 8.5 GW的大量,這大致是為美國所有 Blackwell 晶片供電的最低限度。只有當我們假設美國只有配備 Nvidia 晶片的資料中心(不包括 AMD、TPU 及其他沒有 Nvidia 的資料中心),並且只有 Blackwell 在 2024 年建成的資料中心中安裝過,並且他們是在等待 2025 年 Blackwell 晶片執行階段,數學才是相符的。根據聯邦能源監管委員會(FERC)的資料,美國在 2025 年 1 月至 8 月間安裝了近 26 吉瓦的新發電容量,略高於去年同期的約 23 吉瓦。在26吉瓦中,3吉瓦為風能,3.7吉瓦天然氣,20吉瓦太陽能,0吉瓦核能。我會相信Jensen,因為在這篇文章裡,我們只是相信Jensen的話:未來6到7年,我們將看到一堆小型核反應堆,我們都會成為發電廠,就像某個人的農場一樣。所以我假設他指的是從2026年1月開始,因為到目前為止,美國在2025年部署的核能是0吉瓦的。這意味著,如果所有已建成、部署並計畫今年年底完工的資料中心都按時完工,那麼僅從數字上(簡單計算,我不清楚實際分配情況)來看,今年所有建成的天然氣都分配給了資料中心消費,其中約80%的風能或約25%的太陽能。大空頭Burry 的出擊上周末,因預測 2008 年房地產崩盤而名聲大噪的投資者麥可·貝瑞(Michael Burry)要求提供輝達公司囤積GPU 的證據。其實早在2023年和2024年,貝瑞就曾警告投資者不要對科技行業過度樂觀。這些警告並未點名批評輝達,而是以評論估值、利率和投機等話題的形式在市場上廣泛傳播。公眾仍然將他與宏觀經濟的悲觀論調聯絡在一起,而不是與人工智慧經濟學聯絡起來。到2024年底,形勢開始轉變。海外監管檔案顯示,Michael Burry主導的Scion Asset Management買入了大量與輝達和Palantir掛鉤的看跌期權。這筆交易低調、規模異常,而且出手較早。他當時並未與輝達發生衝突,而是押注人工智慧的發展將會遭遇阻力。2025年11月,貝瑞詳細闡述了他認為目前對人工智慧熱潮理解方式存在的根本性缺陷。他的論點涵蓋了會計選擇、成本假設、企業激勵機制以及高資本支出技術周期的心理因素。這些缺陷並非僅限於輝達,但該公司處於風口浪尖,因為它提供了推動這場競賽的硬體。他的擔憂很快引起了輝達的重視並做出了回應。貝瑞觀點的核心在於人工智慧硬體的使用壽命。購買先進GPU的公司通常會將這些資產按年折舊。這種折舊方式可以將成本分攤到不同時期,從而降低短期支出並提高帳面收益。貝瑞認為這種做法掩蓋了經濟真相。他認為人工智慧硬體的更新換代速度太快,不值得採用如此長的折舊周期。他估計,更合理的使用壽命可能接近三年。這種差異至關重要,因為這些晶片價格昂貴。較長的折舊期會降低每個季度的帳面成本。較短的折舊期則會降低許多人工智慧採用者的收益,並縮小其人工智慧投資的表面回報。如果這些公司指望使用壽命只有一半的資產來獲得六年的生產力,那麼它們的實際利潤率可能遠低於表面值。這並非欺詐指控,而是關於發展速度的爭論。人工智慧硬體發展日新月異,今天發佈的晶片很快就會與後續產品展開競爭。如果折舊計畫與這一現實不符,最終會導致資產減值或新採購熱情下降。貝瑞的分析認為,這種差距可能在2026年至2028年期間顯現。對於一家依賴客戶快速積極採購的公司而言,增長放緩的影響可能非常顯著。一些最具爭議的評論涉及供應商融資或循環融資的概念。像吉姆·查諾斯這樣的分析師也表達了類似的擔憂,即人工智慧生態系統中可能存在一些激勵機制或融資結構,會人為地製造需求。在這種觀點看來,受益於人工智慧基礎設施增長的公司可能以某種方式幫助買家抬高了當前的銷售額。輝達對此予以堅決否認。該公司聲明,它不會參與此類行為,其需求源於真實、獨立的購買決策。這場爭論持續不斷,是因為供應商融資模式在其他行業早已存在。當需求激增時,一些公司會為客戶提供支援以維持增長勢頭。人工智慧領域是否存在類似模式仍不確定。在沒有證據的情況下,這場爭論仍然停留在懷疑與否認的層面。未來任何證實都將產生重大影響。目前,這仍然是更廣泛討論中一個懸而未決的問題。投資者現在都在密切關注各種跡象。超大規模資料中心營運商在裝置使用壽命和減值方面的決策至關重要。人工智慧資本支出的速度至關重要。是否存在任何融資安排也至關重要。問題不在於人工智慧是否會繼續成為技術領域的核心,而在於當前的支出速度是否與長期價值創造相匹配。人工智慧晶片折舊速度引發的會計風波在今天,華爾街日報也發佈了一個文章,探討了人工智慧晶片折舊速度引發的會計風波。WSJ表示,關於輝達的會計處理方式,一場爭論正在激烈進行。他們指出,科技公司正在斥巨資研發晶片和其他裝置。這一次,一些人工智慧公司的批評者可能有些言過其實了。投資者很少會對固定資產的合理折舊時間表這樣看似平淡無奇的話題如此關注。但當少數幾家全球最大的公司在人工智慧基礎設施上的投入高達數千億美元時,市場自然會密切關注。在2015年電影《大空頭》中由克里斯蒂安·貝爾飾演的著名投資經理麥可·貝瑞,最近又火上澆油。他在上個月的一篇文章中寫道:“延長資產使用壽命可以減少折舊費用,增加表面利潤。這是現代最常見的欺詐手段之一,會導致資產估值過高和利潤虛增。”“無論這種批評是否合理,我們都需要從不同的角度看待它。”WSJ表示。例如,今年Meta Platforms公司將其大部分伺服器和網路資產的預計使用壽命延長至5.5年。此前,該公司曾表示其預計使用壽命為4至5年。而就在2020年,Meta還表示其預計使用壽命最短僅為3年。Meta公司表示,最新延期使其2025年前九個月的折舊費用減少了23億美元。這筆金額不小。但為了更直觀地理解其規模,該公司此前的折舊總費用接近130億美元,而稅前利潤則超過600億美元。Alphabet、微軟以及亞馬遜等公司對類似資產的使用壽命也比五年前更長。Alphabet 和微軟的使用壽命均為六年,高於 2020 年的三年。亞馬遜在 2020 年採用的是四年,並計畫到 2024 年延長至六年,但今年將部分伺服器和網路裝置的使用壽命縮短至五年。華爾街日報指出,公司將折舊費用計入損益,是因為其固定資產最終會損耗或過時。這種做法確保資本投資成本能夠隨著時間的推移在財務報表中得到確認。管理層的任務是選擇一個年限,逐步將這些折舊費用攤銷出去。多年來,大型科技公司延長其正在折舊的資產的使用壽命,一直備受投資者關注。這不難理解,因為這樣做可以將費用轉移到未來,從而提高當期收益。管理層僅僅通過修改會計估算,就能輕而易舉地將年度收益增加數十億美元,這種做法即便稱得上大膽,也顯得過於激進。但歸根結底,更重要的問題或許不在於合適的折舊年限,而在於合適的折舊方法。目前普遍採用的是直線法,即對同一筆購置的資產,每年的折舊費用都相同。然而,某些類型的資產價值在早期會急劇下降,然後趨於穩定,並沿著可預測的曲線緩慢下降。例如,據追蹤輝達晶片價格的Silicon Data公司稱,最近一台使用三年的H100系統的平均轉售價格約為全新H100價格的45%。在這種情況下,所謂的加速折舊法可能比直線折舊法更能反映經濟現實。採用六年折舊期,折舊費用在經濟效益消耗較快的初期會較高,而在後期則會較低。不過,在這種情況下,差別不會太大。如果採用直線折舊法,第三年的累計折舊額將不到購買價格的一半。如果採用加速折舊法,累計折舊額會略高於一半。而大型人工智慧超大規模資料中心的投資者們也深知,任何對當前投資高回報的預期都需數年之後才能實現。從根本上講,公司財務報表中的大多數數字都是基於估計、猜測和假設。折舊這項費用也是一種人為建構的概念,就像會計中的許多其他概念一樣。精確性是罕見的。沒有人能夠確切地知道一家公司的固定資產每年貶值多少。公司管理層可能並不清楚特定資產的使用壽命,尤其是一些高需求的技術裝置。如果資產價值嚴重受損,管理層理應計提更大額的減值準備。但通常情況下,減值準備只有在公司股價暴跌之後才會進行,而“七俠蕩寇志”顯然並非如此。如果投資者將來認為大量人工智慧投資被浪費了,那並非因為企業選擇的折舊方法。儘管人們有充分的理由質疑科技巨頭如何為其人工智慧投資進行會計核算,但折舊之爭並不會改變最終結果。 (半導體行業觀察)
重新洗牌!ASIC晶片破1000萬顆,中國國產AI晶片逆襲機會來了?
人工智慧正通過前所未有的硬體驅動(AI晶片)投資,以驅動全球產業和技術格局。根據專業機構資料,到2030年,用於AI最佳化資料中心的資本支出 (CapEx) 預計將超過7兆美元,這一規模是以往任何計算轉型都無法比擬的。但與過去幾年全球AI硬體以訓練為主不同,當前全球AI晶片市場正在經歷從GPU(圖形處理器)一家獨大,向“GPU與ASIC(專用晶片)共生互補”格局的深刻轉變;這與全球AI日益轉嚮應用端趨勢不謀而合。當然,目前全球人工智慧市場依然由GPU主導,其在市場價值中佔比超過80%,而ASIC僅為8%-11%。但如果以出貨量為指標的話,天平已在悄然傾斜。2025年,Google自研的TPU晶片出貨量預計達150萬-200萬台,亞馬遜AWS的Trainium 2 ASIC約為140萬-150萬台,兩者合計規模已接近同期輝達AI GPU的40%-60%。更具顛覆性的是,隨著Meta計畫2026年量產100萬-150萬顆MTIA晶片,以及微軟2027年啟動大規模ASIC部署。根據野村證券最新資料認為:ASIC整體出貨量有望在2026年某個時間點超越輝達GPU。而根據DIGITIMES預測,ASIC晶片出貨量將在2027年突破千萬規模,與GPU的出貨量相比,已在伯仲之間了。那這是否意味著輝達GPU的市場影響力下降了呢?以輝達為主導的全球GPU市場(AMD配角),其主要優勢在於通用性強、生態壁壘高(CUDA)、適合複雜和快速迭代的任務,如大模型訓練。從目前來看輝達GPU出貨量不會下降,但其市場份額將持續下滑將是必然。這從輝達第三財季的資料也可以得到印證,其第三財季營收為570.1億美元,超出市場預期的549.2億美元; 資料中心營收為512億美元,輕鬆超過分析師預測的490.9億美元,同比增長66%。這鞏固了輝達在人工智慧計算基礎設施領域的領先地位。其中,微軟、亞馬遜、Alphabet和Meta這四家公司合計佔輝達銷售額的40%以上,預計未來12個月這些公司的AI支出總額將增長34%至4400億美元。這說明輝達GPU在全球人工智慧市場中無可取代的地位。但從未來全球資料中心技術路線來看,也已從“單一引擎”進化到“混合架構”;即未來資料中心將普遍採用 “GPU訓練 + ASIC推理”的混合算力策略。這種組合既能利用GPU的靈活性進行模型開發和迭代,又能在模型部署後通過ASIC實現極致的推理能效和成本控制,最佳化整體營運成本(TCO)。從應用場景來說,隨著AI應用大規模落地,推理計算需求正呈指數級增長。有預測顯示,到2026年,推理計算需求可能佔AI總計算需求的70%以上。這種演算法相對固定的規模化場景,正是ASIC發揮其能效和成本優勢的主戰場。全球ASIC的爆發,恰好與中國的產業需求和安全訴求高度契合。這既是機遇,也帶來了獨特的挑戰。中國巨大的應用市場能提供豐富的推理場景,這正是ASIC的優勢領域。同時,外部供應的不確定性,使國產替代從“可選項”變為“必選項”,為本土ASIC創造了關鍵窗口期。何況,自研ASIC能針對特定場景最佳化,實現更好的性價比和能效比。但由於國產AI晶片在單顆晶片的絕對性能上暫時落後,中國企業開創性地將競爭維度提升到了 “系統級” ,即通過架構和互聯技術創新,用多晶片協同來彌補單卡差距。也就是說,國產晶片不再追求在單卡上對標頂級GPU,而是通過超節點(SuperPOD)等先進架構,將成千上萬顆國產晶片高效互聯,形成一個超級電腦等級的統一算力底座。目前,華為的Atlas系列超節點和阿里雲的磐久超節點伺服器已大規模部署,能支撐萬卡級叢集和千億參數大模型的訓練。業界認為,這是規避先進製程限制、持續提供算力的關鍵策略。根據弗若斯特沙利文資料,中國的AI晶片市場規模將從2024年的1425.37億元,激增至2029年的1.34兆元,2025年至2029年的年均複合增長率為53.7%。同時,國產AI晶片的滲透率也在快速提升。根據IDC資料顯示,2024年,中國本土AI晶片品牌滲透率約30%,出貨量達到82萬張,相較上年同期15%的國產品牌滲透率,呈明顯提升趨勢。甚至有分析預測,中國AI晶片市場的本土化率將快速提升至2027年的55%左右。因此,從全球AI晶片的技術趨勢來看,ASIC晶片的應用將愈發廣泛;結合中國市場對供應鏈安全、成本控制和龐大應用場景的需求,這些正推動中國產業走出一條以ASIC和專用晶片為突破口、以系統級叢集能力為槓桿、以應用生態協同為加速器的獨特發展路徑。 (飆叔科技洞察)